Introducción

La demanda de procesamiento de flujos en tiempo real estÔ aumentando cada vez mÔs. La razón es que a menudo el procesamiento de grandes volúmenes de datos no es suficiente. Los datos tiene que ser procesados rÔpidos para que una empresa pueda reaccionar a las condiciones cambiantes del negocio en tiempo real.

Web logs, RFID, sensor networks, social networks, social data, pÔginas de Internet, Indexado y búsqueda de pÔginas de internet, detalle de llamadas, datos astronómicos, ciencia, datos genómicos, biogeoquímicos, biológicos, vigilancia (cÔmas de vídeo, por ejemplo), biogeoquímicos, biológicos, registros médicos, fotografías, vídeo, transacciones bancarias, son ejemplos de lo que se puede procesar.


El siguiente es un esquema general de las herramientas que podemos utilizar. (Existen nuevas tendencias como Apache Kafka o combinacion de flume y kafka (Flafka) o el ecosistema que se esta formado en torno a spark)

Fuente: http://hortonworks.com/


Pero ¿Qué es Big data?

Es un concepto relativo (como todo aquello que estÔ relacionado con el tamaño) Cuando la información no viene en formatos estructurados Crecimiento acelerado en la adquisición de datos, hardware, alamacenamiento, paralelismo, tiempo de proceso, etc. AnÔlisis de datos de varias fuentes distintas


Objetivo

En el siguiente trabajo utilizamos herramientas para procesamiento de flujo de datos.


Datos GDELT

GDELT es un proyecto que contiene mÔs de 300 millones de eventos geolocalizados desde 1979 a la fecha. Los datos se basan en informes de noticias de una variedad de fuentes internacionales codificadas usando el sistema de TABARI para registrar los eventos y el uso de software adicional para la ubicación y el tono. Los datos son de libre disposición y actualizadas diariamente.


Uso potencial de los datos GDELT

La base de GDELT nos puede ofrecer registros de eventos de conflictos a lo largo de toda la república mexicana y del mundo. Como por ejemplo podemos distinguir en el siguiente grÔfico las zonas con mayores conflictos registrados.



Data Flow

GDELT


Resultados (visualizaciones)


Registro de conflictos en MƩxico


Posibles Neogicios con la tenologĆ­a desarrollada. (Usos potenciales)


Un uso potencial es utilizar la tecnología desarrollado para eventos de promoción de una marca. Como por ejemplo procesar información de twitter en tiempo real en conciertos para usos mercadológicos.



Otro uso potencial es procesar la percepción ciudadana el día de las elecciones a nivel nacional con base en redes sociales y blogs.